智能论文笔记

A single speaker is almost all you need for automatic speech recognition

Edresson Casanova , Christopher Shulby , Alexander Korolev , Arnaldo Candido Junior , Anderson da Silva Soares , Sandra Aluísio , Moacir Antonelli Ponti

分类：自然语言处理

2022-03-29

我们探索跨语性多演讲者语音综合，并将跨语性语音转换应用于自动语音识别（ASR）系统的数据增强。通过广泛的实验，我们表明我们的方法允许语音合成和语音转换的应用，以在模型培训期间仅使用一个目标语言使用者在目标语言上改善ASR系统。与使用许多讲话者的其他作品相比，我们设法缩小了经过合成的与人类语音训练的ASR模型之间的差距。最后，我们表明，只使用目标语言的单个真实扬声器，可以通过我们的数据增强方法获得有希望的ASR培训结果。

translated by 谷歌翻译

YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone

Edresson Casanova , Julian Weber , Christopher Shulby , Arnaldo Candido Junior , Eren Gölge , Moacir Antonelli Ponti

分类：自然语言处理

2021-12-04

YOUTTS为零拍摄多扬声器TTS的任务带来了多语言方法的力量。我们的方法在VITS模型上构建，并为零拍摄的多扬声器和多语言训练增加了几种新颖的修改。我们实现了最先进的（SOTA）导致零拍摄的多扬声器TTS以及与VCTK数据集上的零拍语音转换中的SOTA相当的结果。此外，我们的方法可以实现具有单扬声器数据集的目标语言的有希望的结果，以低资源语言为零拍摄多扬声器TTS和零拍语音转换系统的开放可能性。最后，可以微调言论不到1分钟的言论，并实现最先进的语音相似性和合理的质量。这对于允许具有非常不同的语音或从训练期间的记录特征的讲话来合成非常重要。

translated by 谷歌翻译

CORAA: a large corpus of spontaneous and prepared speech manually validated for speech recognition in Brazilian Portuguese

Arnaldo Candido Junior , Edresson Casanova , Anderson Soares , Frederico Santos de Oliveira , Lucas Oliveira , Ricardo Corso Fernandes Junior , Daniel Peixoto Pinto da Silva , Fernando Gorgulho Fayet , Bruno Baldissera Carlotto , Lucas Rafael Stefanel Gris

分类：自然语言处理

2021-10-14

自动语音识别（ASR）是一个复杂和具有挑战性的任务。近年来，该地区出现了重大进展。特别是对于巴西葡萄牙语（BP）语言，在2020年的下半年，有大约376小时的公众可供ASR任务。在2021年初发布新数据集，这个数字增加到574小时。但是，现有资源由仅包含读取和准备的演讲的Audios组成。缺少数据集包括自发性语音，这在不同的ASR应用中是必不可少的。本文介绍了Coraa（注释Audios语料库）V1。使用290.77小时，在包含验证对（音频转录）的BP中ASR的公共可用数据集。科拉还含有欧洲葡萄牙音像（4.69小时）。我们还提供了一个基于Wav2VEC 2.0 XLSR-53的公共ASR模型，并通过CoraA进行微调。我们的模型在CoraA测试集中实现了24.18％的单词误差率，并且在常见的语音测试集上为20.08％。测量字符错误率时，我们分别获得11.02％和6.34％，分别为CoraA和常见声音。 Coraa Corpora在自发言论中与BP中的改进ASR模型进行了组装，并激励年轻研究人员开始研究葡萄牙语的ASR。所有Corpora都在CC By-NC-ND 4.0许可证下公开提供Https://github.com/nilc-nlp/coraa。

translated by 谷歌翻译

Brazilian Portuguese Speech Recognition Using Wav2vec 2.0

Lucas Rafael Stefanel Gris , Edresson Casanova , Frederico Santos de Oliveira , Anderson da Silva Soares , Arnaldo Candido Junior

分类：自然语言处理

2021-07-23

已经证明了深度学习技术在各种任务中有效，特别是在语音识别系统的发展中，即旨在以一系列写词中的音频句子转录音频句子的系统。尽管该地区进展，但语音识别仍然可以被认为是困难的，特别是对于缺乏可用数据的语言，例如巴西葡萄牙语（BP）。从这个意义上讲，这项工作介绍了仅使用打开可用的音频数据的公共自动语音识别（ASR）系统的开发，从Wav2Vec 2.0 XLSR-53模型的微调，在许多语言中，通过BP数据进行了多种。最终模型在7个不同的数据集中呈现12.4％的平均误差率（在应用语言模型时10.5％）。根据我们的知识，这是开放ASR系统中BP的最佳结果。

translated by 谷歌翻译

Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning

Colorado J. Reed , Ritwik Gupta , Shufan Li , Sarah Brockman , Christopher Funk , Brian Clipp , Christopher Funk , Salvatore Candido , Matt Uyttendaele , Trevor Darrell

分类：计算机视觉

2022-12-30

Remote sensing imagery provides comprehensive views of the Earth, where different sensors collect complementary data at different spatial scales. Large, pretrained models are commonly finetuned with imagery that is heavily augmented to mimic different conditions and scales, with the resulting models used for various tasks with imagery from a range of spatial scales. Such models overlook scale-specific information in the data. In this paper, we present Scale-MAE, a pretraining method that explicitly learns relationships between data at different, known scales throughout the pretraining process. Scale-MAE pretrains a network by masking an input image at a known input scale, where the area of the Earth covered by the image determines the scale of the ViT positional encoding, not the image resolution. Scale-MAE encodes the masked image with a standard ViT backbone, and then decodes the masked image through a bandpass filter to reconstruct low/high frequency images at lower/higher scales. We find that tasking the network with reconstructing both low/high frequency images leads to robust multiscale representations for remote sensing imagery. Scale-MAE achieves an average of a $5.0\%$ non-parametric kNN classification improvement across eight remote sensing datasets compared to current state-of-the-art and obtains a $0.9$ mIoU to $3.8$ mIoU improvement on the SpaceNet building segmentation transfer task for a range of evaluation scales.

translated by 谷歌翻译

Mapless Navigation of a Hybrid Aerial Underwater Vehicle with Deep Reinforcement Learning Through Environmental Generalization

Ricardo B. Grando , Junior C. de Jesus , Victor A. Kich , Alisson H. Kolling , Rodrigo S. Guerra , Paulo L. J. Drews-Jr

分类：机器人 | 人工智能

2022-09-13

先前的工作表明，深-RL可以应用于无地图导航，包括混合无人驾驶空中水下车辆（Huauvs）的中等过渡。本文介绍了基于最先进的演员批评算法的新方法，以解决Huauv的导航和中型过渡问题。我们表明，具有复发性神经网络的双重评论家Deep-RL可以使用仅范围数据和相对定位来改善Huauvs的导航性能。我们的深-RL方法通过通过不同的模拟场景对学习的扎实概括，实现了更好的导航和过渡能力，表现优于先前的方法。

translated by 谷歌翻译

Deterministic and Stochastic Analysis of Deep Reinforcement Learning for Low Dimensional Sensing-based Navigation of Mobile Robots

Ricardo B. Grando , Junior C. de Jesus , Victor A. Kich , Alisson H. Kolling , Rodrigo S. Guerra , Paulo L. J. Drews-Jr

分类：机器人 | 人工智能

2022-09-13

深钢筋学习中的确定性和随机技术已成为改善运动控制和各种机器人的决策任务的有前途的解决方案。先前的工作表明，这些深-RL算法通常可以应用于一般的移动机器人的无MAP导航。但是，他们倾向于使用简单的传感策略，因为已经证明它们在高维状态空间（例如基于图像的传感的空间）方面的性能不佳。本文在执行移动机器人无地图导航的任务时，对两种深-RL技术 - 深确定性政策梯度（DDPG）和软参与者（SAC）进行了比较分析。我们的目标是通过展示神经网络体系结构如何影响学习本身的贡献，并根据每种方法的航空移动机器人导航的时间和距离提出定量结果。总体而言，我们对六个不同体系结构的分析强调了随机方法（SAC）更好地使用更深的体系结构，而恰恰相反发生在确定性方法（DDPG）中。

translated by 谷歌翻译

Virtual Reality Platform to Develop and Test Applications on Human-Robot Social Interaction

Jair A. Bottega , Raul Steinmetz , Alisson H. Kolling , Victor A. Kich , Junior C. de Jesus , Ricardo B. Grando , Daniel F. T. Gamarra

分类：机器人

2022-08-13

机器人模拟一直是机器人领域研发的组成部分。模拟消除了通过启用机器人的应用测试来快速，负担得起的，而无需遭受机械或电子误差而进行机器人应用测试，从而消除了对传感器，电动机和实际机器人物理结构的可能性。通过虚拟现实（VR）模拟，通过提供更好的环境可视化提示，为与模拟机器人互动提供了更具吸引力的替代方法，从而提供了更严肃的体验。这种沉浸至关重要，尤其是在讨论社交机器人时，人类机器人相互作用（HRI）领域的子区域。在日常生活中，机器人的广泛使用取决于HRI。将来，机器人将能够与人们有效互动，以在人类文明中执行各种任务。在个人工作空间开始扩散时，为机器人开发简单且易于理解的接口至关重要。因此，在这项研究中，我们实施了一个使用现成的工具和包装的VR机器人框架，以增强社交HRI的研究和应用开发。由于整个VR接口是一个开源项目，因此可以在身临其境的环境中进行测试，而无需物理机器人。

translated by 谷歌翻译

VoloGAN: Adversarial Domain Adaptation for Synthetic Depth Data

Sascha Kirch , Rafael Pagés , Sergio Arnaldo , Sergio Martín

分类：计算机视觉 | 机器学习

2022-07-19

我们提出了Vologan，这是一个对抗域的适应网络，该网络将一个人的高质量3D模型的合成RGB-D图像转换为可以使用消费者深度传感器生成的RGB-D图像。该系统对于为单视3D重建算法生成大量训练数据特别有用，该算法复制了现实世界中的捕获条件，能够模仿相同的高端3D模型数据库的不同传感器类型的样式。该网络使用具有u-net体系结构的CycleGAN框架，以及受SIV-GAN启发的鉴别器。我们使用不同的优化者和学习率计划来训练发电机和鉴别器。我们进一步构建了一个单独考虑图像通道的损失函数，除其他指标外，还评估了结构相似性。我们证明，可以使用自行车来应用合成3D数据的对抗结构域适应，以训练只有少量训练样本的体积视频发电机模型。

translated by 谷歌翻译

Depth-CUPRL: Depth-Imaged Contrastive Unsupervised Prioritized Representations in Reinforcement Learning for Mapless Navigation of Unmanned Aerial Vehicles

Junior Costa de Jesus , Victor Augusto Kich , Alisson Henrique Kolling , Ricardo Bedin Grando , Rodrigo da Silva Guerra , Paulo Lilles Jorge Drews Jr

分类：机器人 | 人工智能

2022-06-30

强化学习（RL）通过原始像素成像和连续的控制任务在视频游戏中表现出了令人印象深刻的表现。但是，RL的性能较差，例如原始像素图像，例如原始像素图像。人们普遍认为，基于物理状态的RL策略（例如激光传感器测量值）比像素学习相比会产生更有效的样品结果。这项工作提出了一种新方法，该方法从深度地图估算中提取信息，以教授RL代理以执行无人机导航（UAV）的无地图导航。我们提出了深度模仿的对比度无监督的优先表示（DEPTH-CUPRL），该表示具有优先重播记忆的估算图像的深度。我们使用RL和对比度学习的组合，根据图像的RL问题引发。从无人驾驶汽车（UAV）对结果的分析中，可以得出结论，我们的深度cuprl方法在无MAP导航能力中对决策和优于最先进的像素的方法有效。

translated by 谷歌翻译